Telegram Group & Telegram Channel
👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6548
Create:
Last Update:

👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6548

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

The S&P 500 slumped 1.8% on Monday and Tuesday, thanks to China Evergrande, the Chinese property company that looks like it is ready to default on its more-than $300 billion in debt. Cries of the next Lehman Brothers—or maybe the next Silverado?—echoed through the canyons of Wall Street as investors prepared for the worst.

How to Use Bitcoin?

n the U.S. people generally use Bitcoin as an alternative investment, helping diversify a portfolio apart from stocks and bonds. You can also use Bitcoin to make purchases, but the number of vendors that accept the cryptocurrency is still limited. Big companies that accept Bitcoin include Overstock, AT&T and Twitch. You may also find that some small local retailers or certain websites take Bitcoin, but you’ll have to do some digging. That said, PayPal has announced that it will enable cryptocurrency as a funding source for purchases this year, financing purchases by automatically converting crypto holdings to fiat currency for users. “They have 346 million users and they’re connected to 26 million merchants,” says Spencer Montgomery, founder of Uinta Crypto Consulting. “It’s huge.”

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA